基于腿部机器人的基于深的加固学习(RL)控制器表现出令人印象深刻的鲁棒性,可在不同的环境中为多个机器人平台行走。为了在现实世界中启用RL策略为类人类机器人应用,至关重要的是,建立一个可以在2D和3D地形上实现任何方向行走的系统,并由用户命令控制。在本文中,我们通过学习遵循给定步骤序列的政策来解决这个问题。该政策在一组程序生成的步骤序列(也称为脚步计划)的帮助下进行培训。我们表明,仅将即将到来的2个步骤喂入政策就足以实现全向步行,安装到位,站立和攀登楼梯。我们的方法采用课程学习对地形的复杂性,并规避了参考运动或预训练的权重的需求。我们证明了我们提出的方法在Mujoco仿真环境中学习2个新机器人平台的RL策略-HRP5P和JVRC -1-。可以在线获得培训和评估的代码。
translated by 谷歌翻译